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Beschreibung 

Verfahren, Computerprogramm mit Programmcode-Mitteln und Com- 
puterprogramm- Produkfc zur Analyse eines regulatorischen gene- 
tischen Netzwerks einer Zelle 



Die Erf indung betrif f t eine Analyse eines regulatorischen ge- 
netischen Netzwerks einer Zelle unter Verwendung eines sta- 
^ tistischen Verf ahrens . 

10 

Aus [1] sind Grundlagen eines regulatorischen genetischen 
Netzwerks einer Zelle bekannt. Unter einem solchen regulato- 
rischen genetischen Netzwerk seien dabei im Folgenden insbe- 
sondere regulatorische Wechselwirkungen zwischen Genen einer 
15 Zelle verstanden. 



Ein Genom, d.h. die menschliche Erbsubstanz, umfasst schat- 
zungsweise 20.000 bis 40.000 Gene, von denen jeweils eine 
biologisch bestiramte Anzahl — abhangig von einer Spezialisie- 
20 rung einer Zelle - in Form einer DNA oder eines Teils einer 
DNA in einer Zelle vorhanden sind. 

Als ein Gen wird dabei ein nicht notwendigerweise zusammen- 
hangender Abschnitt dieser DNA bezeichnet, der einen geneti- 
25 schen Code fur ein Protein oder auch fur eine Gruppe von Pro- 
teinen (Eiweifistof fe) bzw. fur eine Erzeugung eines Proteins 
oder einer Proteingruppe enthalt. Insgesamt beinhalten die 
Gene einen genetischen Code fur etwa eine Million Proteine. 

30 Ein Wechselspiel bzw. die Wechselwirkungen der Gene unterein- 
ander sowie mit den Proteinen stellt den wichtigsten Teil ei- 
ner Maschinerie (regulatorisches genetisches Netzwerk) dar, 
die einer Entwicklung eines menschlichen Korpers aus einer 
befruchteten Eizelle sowie alien Korperfunktionen zugrunde 

35 liegt . 
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Auch aus [1] ist bekannt, class sogenannte Gen- 
Expressionsraten, welche ein Gen-Expressionsmuster bilden, 
eine Beschreibung bzw. Representation eines regulatorischen 
genetischen Netzwerks bzw. eines aktuellen Zustands des regu 
5 latorischen genetischen Netzwerks lief em. 

Vereinfacht oder anschaulich ausgedriickt reprasentiert somit 
ein Gen-Expressionsmuster einer Zelle einen Zustand des regu 
latorischen genetischen Netzwerks dieser Zelle. 

10 

Ferner ist bekannt, dass unter Verwendung von Hochdurchsatz- 
Genexpress ions -Mes sun gen (Microarray-Daten) diese Gen- 
Expressionsraten messbar sind. Die Microarray-Daten beschrei 
ben wiederum Momentaufnahmen des Gen-Expressionsmusters . 

15 

Viele Krankheiten und Fehlf unktionen des Korpers gehen auf 
Storungen des regulatorischen genetischen Netzwerks zuruck, 
welche sich in eine stark veranderten Gen- 

Expressionsverhalten (Gen-Expressionsraten) bzw. einem veran 
20 derten Gen-Expressrauster einer Zelle widerspiegeln. 

Somit stellt ein Verstandnis des regulierenden genetischen 
Netzwerks einen wichtigen Schritt auf dem Weg zu einer Cha- 
rakterisierung und einem Verstehen von genetischen Mechanis- 
25 men sowie in weiterer Folge zu einer Identif izierung von so- 
genannten dominanten oder Funktionsstorungen auslosenden Ge- 
nen dar, welche den Krankheiten oder Fehlf unktionen zugrunde 
liegen . 

30 Beispielsweise kann in einer Krebsf orschung, bei der die I- 
dentifizierung von Geschwtilste und Tumore unterdrlickenden Ge 
nen eine Schliisselrolle spielt r die Kenntnis neuer potenziel 
ler Onkogene und ihre Wechselwirkung mit anderen Genen ein 
Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebser 

35 krankungen) sein, welche ein Umwandlung normaler Zellen in 
bosartige Krebszellen bestimmen. 
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Weitergehend ist fur eine Entwicklung von verbesserten Medi- 
kamenten und Therapien zur Bekampfung von genetischen Krank- 
heiten daher ebenfalls ein quantitatives Verstandnis des re- 
5 gulatorischen genetischen Netzwerks einer Zelle erforderlich. 



So wirken einige Medikamente als Agonisten bzw. Antagonisten 
spezifischer Zielproteine, d. h. sie verstarken oder schwa- 
chen die Funktion eines Proteins mit entsprechender Ruckwir- 
10 kung auf das regulatorische genetische Netzwerk mit dem Ziel, 
dieses zuruck in einen normalen Funktionsmodus zu bringen. 

Aus [2] ist eine Beschreibung eines regulatorischen geneti- 
schen Netzwerks einer Zelle unter Verwendung eines statisti- 
15 schen Verfahrens, eines kausalen Netzes, bekannt. 

Aus [3] ist ein kausales Netz, ein Bayesianisches (Bayess- 
ches) Netzwerk, bekannt. 




20 Bayessche Netzwerke 



Ein Bayessches Netzwerk B ist ein spezieller Typ der Darstel- 
lung einer gemeinsamen multivariaten Wahrscheinlichkeitsdich- 
tefunktion (WDF) einer Menge von Variablen X durch ein gra- 
25 phisches Modell. 



Es ist durch einen gerichteten azyklischen Graphen (directed 
acyclic graph, DAG) G definiert, in welchern jeder Knoten i = 
1, n einer Zuf alls variablen X± entspricht. 

Die Kanten zwischen den Knoten reprasentieren statistische 
Abhangigkeiten und konnen als Kausalzusammenhange zwischen 
ihnen interpretiert werden. Der zweite Bestandteil des Bay- 
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esschen Netzwerkes ist die Menge von bedingten WDFen 
V(X±\Pa ± , 8, G) , welche mittels eines Vektors 9 parametriert 
sind. 

5 Diese bedingten WDFen spezif izieren die Art der Abhangigkei- 
ten der einzelnen Variablen 1 von der Menge ihrer Elternkno- 
ten (Parents) Pai- Somit kann die gemeinsame WDF in die Pro- 
duktform 

io (i) F{X u X^~.-*t\l U ^ 

zerlegt werden . 

Der DAG eines Bayesschen Netzwerkes beschreibt auf eindeutige 
15 Weise die bedingten Abhangigkeits- und Unabhangigkeitsbezie- 
hungen zwischen einer Menge von Variablen, jedoch hat im Ge- 
gensatz dazu eine gegebene statistische Struktur der WDF kei- 
nen eindeutigen DAG zur Folge. 

20 Vielmehr kann gezeigt werden, dass zwei DAG ein und dieselbe 
WDF beschreiben, dann und nur dann, wenn sie dieselbe Menge 
von Kanten und dieselbe Menge von "Colliders" aufweisen, wo- 
bei ein Collider eine Konstellation ist r in welcher wenigs- 
tens zwei gerichtete Kanten zu demselben Knoten fiihren. 

25 

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren an- 
zugeben, welches eine Analyse eines regulatorischen geneti- 
schen Netzwerks einer Zelle, beispielsweise reprasentiert 
durch ein Gen-Expressionsmuster der Zelle, ermoglicht. 

30 

Ferner liegt der Erfindung die Aufgabe zugrunde, ein Verfah- 
ren anzugeben, welches eine Identif ikation eines defekten 
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Gens, beispielsweise eines Onko- Oder Tumor-Gens, in dem re- 
gulatorischen genetischen Netzwerk einer Zelle ermoglicht. 

Welter soil die Erfindung eine Simulation und/oder eine Ana- 
5 lyse einer Wirkweise eines Medikaments auf das regulatorische 
genetische Netzwerk einer Zelle ermoglichen. 

Diese Aufgabe wird durch das Verfahren, durch das Computer- 
programm mit Programmcode-Mitteln und das Computerprogramm- 
10 Produkt zur Analyse eines regulatorischen genetischen Netz- 
werks einer Zelle mit den Merkmalen gemaB dem jeweiligen un- 
abhangigen Patentanspruch gelost. 

Bei dem grundlegenden Verfahren zur Analyse eines regulatori- 
15 schen genetischen Netzwerks einer Zelle wird ein kausales 
Netz verwendet, 

- welches kausale Netz das regulatorische genetische Netz- 
werk der Zelle beschreibt derart, dass Knoten des kausalen 
Netzes Gene des regulatorischen genetischen Netzwerks rep- 
20 rasentieren und Kanten des kausalen Netzes regulatorische 

Wechselwirkungen zwischen den Genen des regulatorischen 
genetischen Netzwerks reprasentieren. 

Bel dem Analyseverfahren wird nun fur ein ausgewahltes Gen 
25 des regulatorischen genetischen Netzwerks eine Gen- 
Express ionsrate vorgegeben. Unter Verwendung des kausalen 
Netzes wird fur die vorgegebene Gen-Expressionsrate ein re- 
sult ierendes Gen-Expressionsmuster fur das regulatorische ge- 
netische Netzwerk generiert. Das generierte resultierende 
30 Gen-Expressionsmuster wird anschliefiend mit einem vorgegebe- 
nen Gen-Expressionsmuster des regulatorischen genetischen 
Netzwerks verglichen . 

Das Computerprogramm mit Programmcode-Mitteln ist eingerich- 
35 tet, um alle Schritte gemafl dem erf indungsgemafien Verfahren 
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durchzufuhren, wenn das Programm auf einem Computer ausge- 
fuhrt wird. 



Das Computerprogramm-Produkt mit auf einem raaschinenlesbaren 
5 Trager gespeicherten Programmcode-Mitteln 1st eingerichtet, 
urn alle Schritte gemafi dem erf indungsgemafien Verfahren durch 
zuftihren, wenn das Programm auf einem Computer ausgefiihrt 
wird. 



10 Die Anordnung sowie das Computerprogramm mit Programmcode- 
Mitteln, eingerichtet urn alle Schritte gemafi dem er finder i- 
schen Verfahren durchzufuhren, wenn das Programm auf einem 
Computer ausgefiihrt wird, sowie das Computerprograram-Produkt 
mit auf einem raaschinenlesbaren Trager gespeicherten Pro- 

15 grammcode-Mitteln, eingerichtet um alle Schritte geraafi dem 

erfinderischen Verfahren durchzufuhren, wenn das Programm auf 
einem Computer ausgefiihrt wird, sind insbesondere geeignet 
zur Durchfuhrung des erf indungsgema.fi en Verfahrens oder einer 
seiner nachfolgend erlauterten Weiterbildungen. 

20 

Eine probabilistische Semantik eines kausalen Netzes, wie ei- 
nes Bayesschen Netzwerkes, ist zur Analyse von Gen- 
Express ions raten, beispielswei.se gegeben in Form von Microar- 
ray-Daten, sehr gut geeignet, da sie an die stochastische Na- 
25 tur sowohl von biologischen Prozesse als auch von mit einem 
Rauschen behafteten Experimente angepasst ist. 

Ferner wird, anschaulich gesehen, ein Effekt eines Expressi- 
onszustandes bestimmter Gene auf ein globales Gen- 
30 Express ionsmuster (inverse Modellierung) geschatzt, indem ein 
resultierendes Gen-Expressionsmuster analysiert wird. 
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Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Anspriichen. 

Die im weiteren beschriebenen Weiterbildungen beziehen sich 
5 sowohl auf die Verfahren als auch auf die Anordnung. 

Die Erfindung und die im weiteren beschriebenen Weiterbildun- 
gen konnen sowohl in Software als auch in Hardware , bei- 
spielsweise unter Verwendung einer speziellen elektrischen 
10 Schaltung, realisiert werden. 

Ferner ist eine Realisierung der Erfindung oder einer im wei- 
teren beschriebenen Weiterbildung moglich durch ein computer- 
lesbares Speichermedium, auf welchem das Computerprogramm mit 
15 Programmcode-Mitteln gespeichert ist, welches die Erfindung 
oder Weiterbildung ausfiihrt. 

Auch kann die Erfindung oder jede im weiteren beschriebene 
Weiterbildung durch ein Computerprogrammerzeugnis realisiert 
20 sein, welches ein Speichermedium aufweist, auf welchem das 
Computerprogramm mit Programmcode-Mitteln gespeichert ist, 
welches die Erfindung oder Weiterbildung ausfiihrt. 

Bei einer Weiterbildung wird das ausgewahlte Gen unter Ver- 
25 wendung des kausalen Netzes mittels einer Abhangigkeitsanaly- 
se ausgewahlt. 

Auch kann die Gen-Expressionsrate des ausgewahlten Genes der- 
art vorgegeben werden, dass die vorgegebene Gen-Expressrate 
30 des ausgewahlten Genes eine Annahme eines Gendefekts wider- 
spiegelt . 

Als kausales Netz kann ein Bayesianisches bzw. Bayessches 
Netz verwendet werden. 
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Auch kaim das kausale Netz von einem Typ DAG (directed acylic 
graph) sein. 

5 Ferner kann bzw. konnen das generierte resultierende und/oder 
das vorgegebene Gen-Expressionsmuster diskrete Genzustande 
reprasentieren, wobei die reprasentierten diskreten Gen- 
zustande ein uber-, ein normal-, ein unterexprimierten Gen- 
zustand sein konnen. 

10 

Bei einer Weiterbildung wird der Vergleich des generierten 
resultierenden Gen-Expressionsmuster mit dem vorgegebenen 
Gen-Expressionsmuster unter Verwendung eines statischen Ver- 
fahrens und/oder einer statistischen Kennzahl, insbesondere 
15 eines Abstandsmaftes, durchgef uhrt . 

Auch kann vorgesehen werden, dass das kausale Netz unter Ver- 
wendung von Gen-Expressionsmustern trainiert wird, wobei die 
Knoten und die Kanten des kausalen Netzes angepasst werden . 

20 

Ferner ist es zweckmafiig, dass die Gen-Expressionsmuster, 
insbesondere das vorgegebene Gen-Expressionsmuster und/oder 
die Gen-Expressionsmuster fur das Training, bestimmt werden 
unter Verwendung einer DNA-Micro-Array-Technik. 

25 

Bei einer Ausgestaltung ist das vorgegebene Gen- 
Expressionsmuster und/oder die Gen-Expressionsmuster fur das 
Training ein Gen-Expressionsmuster eines genetischen regula- 
torischen Netzwerks einer kranken Zelle. 

30 

Dabei kann beispielsweise die kranke Zelle eine Onko-Zelle 
sein, insbesondere eine Onko-Zelle mit ALL (Akute 
lymphoblastische Leukamie) . 

35 Ferner kann auch die kranke Zelle ein Onko-Gen, insbesondere 
ein ALL-Onko-Gen, aufweisen. 



WO 2005/003368 



PCT/EP2004/051266 



9 

Auch kann fur eine Vielzahl von ausgewahlten Genen des regu- 
latorischen genetischen Netzwerks jeweils eine Gen- 
Expressionsrate vorgegeben werden, eine Vielzahl von resul- 
tierenden Gen-Expressionsmustern generiert werden und/oder 
5 eine Vielzahl von Vergleichen durchgefuhrt werden. 

Bei einer Weiterbildung wird die Generierung der Vielzahl von 
resultierenden Gen-Expressionsmustern iterativ durchgefuhrt. 

10 Ferner eignet sich die erf inderische Vorgehensweise oder Wei- 
terbildung davon insbesondere zur Identif izierung eines domi- 
nanten Gens und/oder eines degenerier- 

ten/mutierten/kranken/onkogenen/Tumor-suppressor Gens • 

15 Auch eignet sie sich zur Identif izierung einer Tumorzelle, 
beispielsweise im Zusammenhang mit einer Krebserkennung. 

Ferner ist die erf inderische Vorgehensweise insbesondere ge- 
eignet zu einer Ursachenanalyse fur ein abnormales Gen- 
20 Expressionsmuster/Gen-Expressrate. 

Auch kann sie eingesetzt werden zu einer Simulation und/oder 
Analyse einer Wirkweise eines Medikaments. 

25 In Figuren ist ein Ausf uhrungsbeispiel der Erfindung darge- 
stellt, welches im weiteren naher erlautert wird. 

Es zeigen 

30 Figur 1 eine Skizze einer Vorgehensweise bei der Untersuchung 
genetisch bedingter Krankheitsursachen durch Bayess- 
che inverse Modellierung am Beispiel einer Krebser- 
krankung; 

35 Figur 2 eine Skizze mit einem Algorithmus zur Erzeugung eines 
Datensatzes von N Stichproben gemafi einem Ausfiih- 
rungsbeispiel; 



WO 2005/003368 



PCT/EP2004/051266 



10 

Figur 3 eine Skizze fur eine Vorgehensweise zur Erzeugung von 
Datensatze, welche eine Auswirkung von verschiedenen 
Beobachtungen widerspiegeln gemafl einem Ausfiihrungs- 
5 beispiel; 

Figuren 4a und b Skizzen die zeigen, dass durch eine 
Stichprobenentnahme gewonnene Daten Untertyp- 
charakteristische Expressionsmuster zeigen wie auch 
10 in einem ursprunglichen Datensatz; 

Figur 5 eine Skizze, die graphisch zeigt eine Wahrscheinlich- 
keit jedes Untertyps unter einer Bedingung, dass ein 
Gen uberexprimiert ist, fur alle 271 Gene; 



15 



20 



25 



Figur 6 eine Skizze einer Graphenstruktur eines kausalen 

Netzwerks, welches ein regulatorisches genetisches 
Netzwerk reprasentiert. 



Ausf uhrungsbeispiel : Untersuchung genetisch bedingter Krank- 
heitsursachen durch Bayessche inverse Modellierung am Bei- 
spiel einer Krebserkrankung (insb. Fig . 1 ) 



Uberblick uber die Vorgehendweise - Bayessche inverse Model- 
lierung (BIM) 

30 Auf vielen Gebieten der empirischen Forschung mochte man aus 
der Beobachtung von Versuchsergebnissen auf das zugrundelie- 
gende Prinzip und dessen Ursprung schliefien - die Beziehung 
zwischen "Ursache" und "Wirkung" . 
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Zum Beispiel wird in der Krebsf orschung das zugrundeliegende 
Prinzip studiert f welches bewirkt, dass sich eine normale 
Zelle in eine bosartige, schnell wachsende Krebszelle verwan- 
delt. 

5 

Die Auswirkung der verschiedenen Arten des Krebses ist be- 
kannt, z. B. das allgemeine Erscheinungsbild einer Krebszelle 
im Vergleich zu einer norraalen Zelle , geraessen mit Hilfe von 
Microarray-Chips . 

10 

Dagegen ist die Ursache ihrer Entstehung grofitenteils unbe- 
kannt . 

Aufgrund der Einsicht, dass Krebs eine genetische Krankheit 
15 ist und dass er auf eine Abweichung des Verhaltens der Zellen 
zuruckzufuhren ist, konzentriert sich die Forschung auf die 
Aufdeckung der genetischen Prinzipien, die fur die Entwick- 
lung des Krebses verantwortlich sind. 

20 Eine wichtige Aufgabe in diesem Umfeld ist es f Gene zu iden- 
tifizieren, welche bei der Tumorgenese eine Rolle spielen 
konnen, wie etwa Geschwulste und Tumore unterdruckende Gene. 

Nachfolgend wird eine Vorgehensweise beschrieben, mit der es 
25 moglich ist, Gene zu identif izieren, die eine potenzielle Ur- 
sache fur die Tumorgenese sind. 

Ein Element der Vorgehensweise ist ein statistisches Verfah- 
ren, in diesem Fall ein Bayesianisches (Bayessches) Netzwerk 
30 [3] (siehe obige und nachfolgende Ausfuhrungen dazu) , welches 
aus einem Microarray-Datensatz [1] gelernt wird [2] (siehe 
nachfolgend dazu ^Strukturelles Lernen") (vgl. Fig.l ) . 
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Dabei wird angenommen, dass die Menge der gemessenen Gen- 
expressionsvektoren X einer Grundgesamtheit mit einer hochdi- 
mensionalen multivariaten Wahrscheinlichkeitsdichtefunktion 
angehort, welche mit Hilfe eines Bayesschen Netzwerkes mit 
5 adaptiver Netzwerkstruktur modelliert wird. 

Die Zusamrnenhange zwischen den Variablen, namlich die beding- 
ten Abhangigkeiten und Unabhangigkeiten, werden mittels eines 
gerichteten azyklischen Graphen (directed acyclic graph, DAG) 
10 G dargestellt. 

Die probabilistische Semantik eines Bayesschen Netzwerkes ist 
zur Analyse von Microarray-Daten sehr gut geeignet, da sie an 
die stochastische Natur sowohl der biologischen Prozesse als 
15 auch der mit einem Rauschen behafteten Experimente angepasst 
ist . 

Bei der nachfolgend beschriebenen Vorgehensweise wird das ge- 
lernte Bayessche Netzwerk als ein generatives Modell zur 
20 Stichprobenentnahme von kunstlichen Microarray-Datensatzen 

verwenden, welches die Dichteschatzung der gelernten beding- 
ten Wahrscheinlichkeitsverteilungen liefert (vgl. Fig . 1 , 
Schritte 110 - 130 ) . 

25 Weiter wird der Effekt des Expressionszustandes bestimmter 

Gene auf das globale Expressionsmuster (inverse Modellierung) 
geschatzt, indem ein resultierende Datensatz analysiert wird 
(vgl . Fig.l Schritte 110 - 130 ) . 

30 Auch wird bei der nachfolgend beschriebenen Vorgehensweise 

jedem Gen seine Wahrscheinlichkeit zugeordnet, mit der es die 
Ursache eines dieser Zellzustande ist. 
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Dazu werden diese Datensatze mit aus Microarray- 
Untersuchungen von verschiedenen bekannten Zellzustanden er- 
haltenen Daten verglichen (vgl . Fig.l, Schritt 130 ) . 

5 Anschaulich gesehen, konzentriert sich die Vorgehensweise 

nicht explizit auf die Struktur des Netzwerkes, sondern viel- 
mehr auf die Wahrscheinlichkeitsverteilung, die durch das ge- 
lernte Bayessche Netzwerk abgeleitet wird. 

10 Schliefilich wird die Vorgehensweise auf Microarray-Daten von 
verschiedenen Untertypen von padiatrischer akuter 
Lymphoblasten-Leukamie (ALL) von Yeoh et al . [4] angewendet. 

Durch den Vergleich der kunstlichen Daten mit Expressionsmus- 
15 tern von spezifischen Krebs -Untertypen erhalt man ein Wahr- 

scheinlichkeitsmaft des krankheitserzeugenden Verhaltens jedes 
Gens (vgl. Fig.l / Schritt 130 ) . 

Ergebnisse der angewendeten Vorgehensweise zeigen, dass diese 
in Verbindung mit der Bayesschen inversen Modellierung (BIM) 
es ermoglicht, die Auswirkung von pathogenetisch veranderten 
Expressionsniveaus auf das globale Expressionsmuster vorher- 
zusagen, wobei bereits bekannte Onkogene ebenso wie poten- 
ziell neue gefunden werden. 

Bayessche Netzwerke 

Im Obigen wurden bereits Grundlagen von Bayesschen Netzen [3] 
beschrieben . 

Im Falle der Modellierung eines regulierenden genetischen 
Netzwerkes durch ein Bayessches Netzwerk werden Gene bzw. ih~ 
re entsprechenden Proteine durch Knoten symbolisiert . 
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Regelungsmechanismen werden durch Kanten zwischen zwei Knoten 
beschrieben, welche auf eine kausale Art und Weise interpre- 
tiert werden konnen. 



Die Qualitat der Regulierung ist in der bedingten Wahrschein- 
lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- 
latoren desselben codiert. 

10 

Strukturelles Iiernen 

Der Vorgang des strukturellen Lernens kann wie folgt be- 
schrieben werden: 



Sei D = {d 1 , d 2 , cf} ein Datensatz von N unabhangigen Be- 

obachtungen, wobei jeder Datenpunkt ein n-dimensionaler Vek- 
tor mit Komponenten d 1 = {d\, d\ r . d\} ist- Bei gegebe- 
nem D ist die Struktur G des Bayesschen Netzwerkes zu finden, 
20 welche am besten mit D ubereinstiramt , d. h. welche die Bayes- 
Punktbewe r t ung ( Baye s - S cor e ) 



maximiert, wobei P{D\G) die Randwahrscheinlichkeit, P{G) die 
Apriori-Wahrscheinlichkeit der Struktur und P(D) die Evidenz 
ist. 

30 Da sowohl die Apriori-Wahrscheinlichkeit als auch die Evidenz 
unbekannt sind, reduziert sich das Problem auf das Ermitteln 
der Struktur mit der besten Randwahrscheinlichkeit entspre- 
chend den Daten (Heckerman et al. [5])- 



5 



15 



(2) 




WO 2005/003368 



PCT/EP2004/051266 



15 

Wenn der Datensatz D aus N Microarray-Experimenten besteht, 
z. B. aus Zellproben von unterschiedlichen Patienten, repra- 
sentiert jeder Datenvektor {d\, d l 2f d l n ) das Expressi- 

5 onsprof il von n Genen in einem Microarray-Experiment . 

Ein aus solchen Daten gelerntes Bayessches Netzwerk codiert 
die Wahrscheinlichkeitsverteilung von n Genen, die aus diesen 
N Microarray-Experimenten erhalten wurden. 

10 

Bayesscbe Inverse Modellierung (BXM) 

Generatives Modell 

15 Ein gelerntes (siehe obige Ausfuhrungen zu x> Strukturelles 
Lernen") Bayessches Netzwerk B stellt eine Dichte- 
Schatzfunktion dar, welche die Wahrscheinlichkeitsverteilung 
des Datensatzes D, von dem ausgehend es gelernt wurde, mit 
Hilfe der Menge der bedingten WDFen widerspiegelt . 

20 

Somit kann es als ein generatives Modell zur Erzeugung eines 
Datensatzes D B verwendet werden, welcher die aus D erhaltene 
Dichteverteilung widerspiegelt. 

25 Fig. 2 zeigt einen Algorithmus 200 zur Erzeugung eines Daten- 
satzes von N Stichproben aus E. 

Der erste Schritt 210 des Algorithmus 200 besteht darin f alle 
Variablen so zu ordnen, dass die Parents (Elternknoten) Pa± 
30 vor X± instantiiert werden. 



Anschliefiend werden die Variablen entsprechend der Ordnung 
gewahlt und mit einem Wert instantiiert 220. 
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Der Wert jeder Variablen wird mit Wahrscheinlichkeit 
P(Zustand | Pa±) gewahlt. Dieser Schritt wird wiederholt 230 , 
bis N Stichproben erzeugt sind. 

5 

Probabilistische Interferenz 

Ein wesentliches Problem in Bayesschen Netzwerken ist die E- 
videnz-Fortpflanzung, das heifct, die Ermittlung der Aposteri- 
10 ori-Verteilungen P(X q \E) einer Abf ragevariablen X q , wenn eine 
gewisse Evidenz E im Bayesschen Netzwerk beobachtet worden 
ist. 

Aufgrund der Definition einer bedingten Wahrscheinlichkeit 
15 ist die Aposteriori-Wahrscheinlichkeit 

20 

wobei X E die Menge der beobachteten Variablen bezeichnet. 

25 Urn die Zeitkomplexitat zu uberwinden, verwenden die verschie- 
denen Methoden der exakten Interf erenzberechnung das allge- 
meine Prinzip der dynamischen Programmierung. 

Im Rahmen dieses Ausfuhrungsbeispiel wird ein einfacher In- 
30 terferenzalgorithmus, der "bucket elimination" [6], verwen- 
det . 
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Die Grundidee bei diesera Interf erenzalgorithmus besteht dar- 
in, Variablen eine nach der anderen entsprechend einer Elimi- 
nations reihenfolge p durch Suramieren zu eliminieren. 

5 Auf diese Weise kann P{X q \E) innerhalb einer annehmbaren Zeit 
effizient berechnet werden. 

Interventionelle Modellierung durch Einstellen der Evidenz 

10 Bei der Herangehensweise der interventionellen Modellierung 

wird die Auswirkung einer bestinunten Beobachtung auf das Ver- 
halten des Bayesschen Netzwerkes unter Verwendung einer Kom- 
bination von probabilistischer Interferenz und Daten- 
Stichprobenentnahme geschatzt. 

15 

Entsprechend Fig, 3 kann das Bayessche Netzwerk als eine Art 
Black Box 300 angesehen werden, wobei der Eingang durch eine 
Menge von Beobachtungen E 310 und die entsprechende Liste von 
beobachteten Variablen X E 320 gegeben ist. 

j 20 

Der Ausgang, der durch den Datensatz D B \ B 330 gegeben ist, 
wird wie im Vorigen zugehorig zu Fig. 2 beschrieben erzeugt. 

Zusatzlich ist die beobachtete Evidenz zu berucksichtigen . 

25 

Folglich wird jeder Zustand von X± mit Wahrscheinlichkeit 
P (Zustand | Pai,E) gewahlt, welche mittels probabilistischer 
Interferenz berechnet wird. 



30 



Mit beschriebener Vorgehensweise gemaii Fig. 3 konnen nun un- 
terschiedliche Datensatze erzeugt werden, welche die Auswir- 
kung der verschiedenen Beobachtungen widerspiegeln . 
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Wenn wie nachfolgend beschrieben biologische Auswirkungen a- 
nalysiert werden, heifit das, dass durch diese Vorgehensweise 
gemafc Fig-. 3 kunstliche Microarray-Daten erzeugbar sind, wel- 
che die Wahrscheinlichkeitsverteilung eines gewissen Daten- 
5 satzes widerspiegeln, wenn bestimmte Beobachtungen gegeben 
sind. 

Vergleicht man die kiinstlich erzeugen Daten mit Daten von be- 
kannter Herkunft f z. B. mit einer krebsspezif ischen Menge von 
10 Messdaten, konnen jene Gene bestimmt werden, welche, wenn sie 
auf einem gewissen Expressionsniveau fixiert werden, das Mo- 
dell so beeinf lussen, dass die beiden Microar ray-Datensat ze f 
der kunstliche und der bekannte, dieselben Eigenschaf ten auf- 
weisen. 

15 

Statistischer Vergleich. von Datensatzen 

Um die Qualitat des Einflusses der Evidenz E auf das Verhal- 
ten des Bayesschen Netzwerkes B zu schatzen, wird der erzeug- 
20 te Datensatz D B]B mit einer Menge von Datensatzen D von be- 
kannten Zustanden S verglichen. 

Es wird angenommen, dass D die Auswirkung verschiedener 
Krebsarten beschreibt. Ausf uhrungsgemafi kann nun das Verhal- 
25 ten von Evidenz E in Bezug auf eine bestimmte Krebsart S be- 
schrieben werden . 

Unter Verwendung eines Abstandsmaftes wird die Anderung a der 
Korrelation zwischen D b \e und D s infolge von E schatzbar: 



30 
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wobei der Abstand zwischen den zwei Datensatzen mit Hilfe des 
Abstands zwischen D B , welches aus B ohne Evidenz entnommen 
wurde, und D s normiert wurde. 

5 Folglich ist ausfuhrungsgemafi der Einfluss einer beobachteten 
Evidenz messbar, z. B. der Expressionszustand eines bestimm- 
ten Gens auf ein fur Krebs charakteristisches Verhalten des 
Modells . 

10 Zweitens ist die Wahrscheinlichkeit dafur berechenbar, dass B 
einen Datensatz D B \ E erzeugt, welcher gleich D s bei gegebenem 
E ist. 

Zu diesem Zweck wird geschatzt, wie viele Stichproben d 1 von 
15 D b \e am nachsten bei D s liegen, indem der Abstand zwischen je- 
der Stichprobe und jedem Datensatz von D berechnet wird. 

Somit erhalt man die Aposteriori -Wahrscheinlichkeit P(S\E) 
des Auftretens der Krebsart S bei gegebener Evidenz E aus: 

20 ^r^iKi^f t'^vi*" : ; ;;• 

wobei N BS die Anzahl der Stichproben von D B \ B ist/ welche sta- 
tistisch dem Datensatz D s am nachsten koramen f und wobei N die 
25 Gesamtzahl der Stichproben von D B |jb ist. 

Wie bereits im Obigen konstatiert beschaftigt sich die empi- 
rische Forschung mit der Beziehung zwischen Ursache und Wir- 
kung f indem sie aus einer experimentellen Beobachtung Ruck- 
30 schlusse auf die zugrundeliegende Ursache zieht. 

Mit der Herangehensweise der Bayesschen inversen Modellierung 
gemafi dem Ausfuhrungsbeispiel wird eine zugrundeliegende Ur- 
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sache geschatzt, indem zuerst eine Wirkung erzeugt wird, die 
aus einer bekannten Beobachtung hervorgeht. 

Nach diesem inversen Schritt wird diese Wirkung mit Wirkungen 
5 verglichen, welche wohldef iniert sind, deren Ursache jedoch 
unbekannt ist. 



Die potenzielle Ursache der am besten ubereinstimmenden Wir- 
kung ist dann durch die Beobachtung gegeben, welche die er- 
10 zeugte Wirkung hervorruft. 

Der AIiL-Microarray-Datensatz von Yeoh et al. [4] 



Die Daten, die fur die Analyse gemaft dem Ausf uhrungsbeispiel 
15 verwendet werden, bestehen aus 327 Stichproben von verschie- 
denen Untertypen von padiatrischer akuter Lymphoblasten- 
Leukarnie (ALL) . 

Der Datensatz wurde von Yeoh und seinen Kollegen vora St. Jude 
20 Children's Research Hospital [4] zusammengestellt . 

ALL ist eine heterogene Krankheit, die verschiedene Unterty- 
pen umfasst / einschlieftlich sowohl Leukamie vom T-Zelltyp als 
auch Leukamie vom B-Zelltyp, die sich hinsichtlich ihrer Re- 
25 aktion auf eine medizinische Behandlung deutlich unterschei- 
den. 



Abgesehen von T-ALL, deren Ursache noch nicht klar bekannt 
1st, kann jeder B-Zellen-Untertyp auf eine spezifische gene- 
30 tische Veranderung zuruckgef uhrt werden, z. B. auf genetische 
Translokationen t(9;22) [BCR-ABL] , t(l;19) [E2A-PBX1 ] , 
t(12;21) [TEL-AML1] , t(4;ll) [MLL] oder auf einen hyper- 
diploiden Karyotyp [> 50 Chromosomen] . 
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Daher ist es nicht verwunderlich, dass die Expressionsmuster 
der verschiedenen Untertypen recht deutlich voneinander un- 
terscheiden . 

5 

Ferner zeigen Microarray-Daten noch ein anderes deutliches 
Expressionsprof il, welches auf die Existenz eines weiteren 
ALL-Untertyps zusatzlich zu den 6 bekannten hindeutet. 

10 Es soli angemerkt werden, dass Yeoh et al. [4] an einem ro- 

busten Klassif ikator zur Klassif izierung der Untertypen unter 
Verwendung einer Stutzvektor-Maschine mit einem Satz von 271 
diskriminierenden Genen arbeitet. 

15 Ergebnisse 

Gelernte Struktur 

Fur die Analyse gemafi dem Ausf uhrungsbeispiel wird der redu- 
20 zierte Datensatz von 271 Genen und 327 Stichproben von ver- 
schiedenen ALL-Untertypen [4], wie oben beschrieben, verwen- 
det. 

Um den Lernvorgang eines multivariaten Modells durchzuf uhren, 
25 wurde der Datensatz in die Werte "unterexprimiert", "normal 
exprimiert" und "uberexprimiert" diskretisiert . 

Die gelernte Struktur zeigt "maftstabf reie" (scale-free) Kenn- 
grofien, ein Merkmal, welches fur biologische Netze, wie etwa 
30 fur metabolische Netze oder Signalisierungsnetze, typisch 
ist. 
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Solche Netze sind durch eine Potenzverteilung des Grades 
(Ranges) eines Knotens gekennzeichnet, welcher als die Anzahl 
der Verbindungen mit anderen Knoten definiert ist. 

5 Diese Knoten besitzen einen starken Einfluss auf die Dynamik 
und Robustheit von "maiistabf reien" Netzen, und von vielen 
dieser in starkem MaBe verbundenen Gene in unserem Modell ist 
tatsachlich bekannt, dass sie eine Rolle bei der Onkogenese 
oder bei mit der Krebsentwicklung zusammenhangenden kriti- 
10 schen Prozessen spielen, z. B. DNA-Reparatur . 

Zuerst wird nun ein Datensatz von 300 Stichproben aus dem Mo- 
dell erzeugt, um die Statistiken zu schatzen, die durch die 
Menge der bedingten Wahrscheinlichkeiten definiert sind. 

15 

Fig. 4 zeigt, dass die durch die Stichprobenentnahme gewonne- 
nen Daten ( Fig. 4b ) Untertyp-charakteristische Expressionsmus- 
ter zeigen, so wie dies auch im ursprunglichen Datensatz 
( Fig, 4a ) der Fall ist. 

20 

Die Muster einiger Untertypen, wie etwa E2A-PBX1 oder T-ALL, 
werden sehr gut reproduziert, wahrend einige andere weniger 
gut generiert werden f z. B. das Muster des Untertyps MLL, o- 
der vollig verfehlt werden , wie etwa BCR-ABL . 

25 



Modellierung von Leukamie -Untertypen durch Intervention 

30 

Das gelernte Bayessche Netzwerk ist die Ausgangsbasis bei dem 
Ausfuhrungsbeispiel fur die Herangehensweise, mittels inver- 
ser Modellierung diejenigen Gene zu finden, welche, wenn sie 
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auf einem bestimmten Expressionsniveau fixiert werden, das 
Modell so beeinflussen, dass der generierte kunstliche Micro- 
array-Datensatz spezifische Merkmale aufweist. 

5 Wie im Obigen beschrieben wurde, wird die Wahrscheinlichkeit 
P(C\E) der Erzeugung eines bestimmten Krebs-Untertyps C ge- 
schatzt, wenn eine gewisse Beobachtung E gegeben ist, in die- 
sem Falle der. Expressions zustand eines bestimmten Gens 
P(C| Geni^Zustand) . 

10 

Im Gegensatz zu Yeoh wird nicht nur das Vorliegen eines be- 
stimmten Krebs-Untertyps vorhergesagt, sondern genet is che Me- 
chanismen, die zu seiner Erzeugung fuhren. 

15 Eine hohe Wahrscheinlichkeit sagt voraus, dass die fixierten 
Gene eine potenzielle Ursache fur das Untertyp-spezif ische 
Expressionsverhalten der fraglichen Gene ist, welches wieder- 
um die zugrundeliegende Ursache fur ein spezifisches kanzero- 
ses Erscheinungsbild sein kann. 

20 

Fur den Vergleich werden 7 Referenz-Datensatze verwendet, wo- 
bei jeder von ihnen in Verbindung rnit einem spezifischen ALL- 
Untertyp erhalten wurde . 

25 Fig . 4a zeigt, dass der ursprungliche Microarray-Datensatz 
deutlich in 7 Cluster (Punkthauf en) mit unterschiedlichen 
Stichprobenumf angen unterteilt ist . 

Jeder dieser Cluster reprasentiert das Expressionsmuster von 
30 271 Genen, wenn ein bestimmter Leukamie-Untertyp gegeben ist, 
und wurde verwendet, urn den Einfluss einer Evidenz auf das 
Auftreten dieser verschiedenen ALL-Untertypen zu messen. 
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In einem ersten Schritt wird jedes Gen bei irgendeinem seiner 
Expressionswerte fixiert, wobei alle diese Bedingungen ver- 
wendeten werden, urn einen Datensatz von 300 Stichproben zu 
generieren ( Fig. 4b ) . 

5 

Anschlieftend werden alle diese Daten mit den 7 Referenz- 
Datensatzen, wie vormals erlautert, verglichen. 

In Fig. 5 1st die Wahrscheinlichkeit jedes Untertyps unter der 
10 Bedingung, dass ein Gen uberexprimiert ist, fur alle 271 Gene 
graphisch dargestellt- 

Fig.5 zeigt, dass eine kleine Anzahl von Genen existiert, 
welche einen bestiinmten ALL-Untertyp mit einer hohen Wahr- 
15 scheinlichkeit hervorrufen, wenn sie stark aktiv sind. 

Urn diese Ergebnisse zu beweisen, wird die molekulare Funktion 
gewisser Gene und ihre Rolle in biologischen Prozessen, ins- 
besondere im Hinblick auf die Pathogeneses nachfolgend einge- 
20 hender betrachtet. 

Biologische Einblicke 

Dazu werden die Gene naher betrachtet f die mit einer hohen 
25 Wahrscheinlichkeit einen bestiinmten Untertyp verursachen, so- 
wie signifikante Strukturmuster in dem gelernten Netzwerk, 
d. h. dorainante Gene und ihre Umgebung. 

Das gelernte Bayessche Netzwerk (Modell) resultiert aus einem 
30 Microarray-Datensatz von unterschiedlichen Leukamie- 

Untertypen und spiegelt transskriptionale Beziehungen zwi- 
schen Genen wider, die in diesen bosartigen Krebszellen auf- 
treten. 
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Somit sind Gene, die einen bestimmten Untertyp hervorrufen, 
entweder potenzielle Onkogene oder werden durch solche Gene 
reguliert . 

5 

Das erste Gen, welches eingehender analysiert wird, ist das 
Gen PBX1. 

Wenn es uberexprimiert ist, erzeugt das gelernte Bayessche 
10 Netzwerk mit einer Wahrscheinlichkeit von 0,96 einen Daten- 

satz, welcher fur den Untertyp E2A-PBX1 der ALL vorn B-Zelltyp 
charakteristisch ist (siehe Fiqr. 5 ) . 

Dies legt die Vermutung nahe, dass ein kausaler Zusammenhang 
15 zwischen der "Uberexprimiertheit" dieses Gens und dem Auftre- 
ten des ALL-Untertyps E2A-PBX1 vorhanden ist. 

Und tatsachlich ist PBX1 als ein Protoonkogen bekannt, wel- 
ches die Verwandlung von normalen Blutzellen in bosartige 
20 ALL-Krebszellen verursacht. 

Infolge der Chromosornen-Translokation t(l;19) verschmilzt 
PBX1 mit dem Gen E2A und verwandelt sich in ein potentes On- 
kogen, welches den Leukamie-Untertyp E2A-PBX1 verursacht. 

25 

Da ferner die Graphstruktur des Modells ( Fig. 6 ) auf eine kau- 
sale Weise interpretiert werden kann, liefert sie Inf ormatio- 
nen uber die Wechselwirkung zwischen potenziellen Onkogenen 
und anderen Genen, was wiederum als eine onkogene Regelung 
30 interpretiert werden kann. 

Wenn man die Struktur des Netzwerkes ( Fig. 6 ) betrachtet, so 
stellt PBX1 ein dominantes Gen dar, indem es viele andere Ge- 
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ne beeinflusst, jedoch nur von einem oder wenigen anderen Ge- 
nen reguliert wird. 

Zusatzlich identif iziert das Modell aufgrund der bedingten 
5 Wahrscheinlichkeitsverteilung PBX1 als einen Transkription- 
saktivator . 

Dies kann ebenfalls durch bekannte biologische Tatsachen er- 
klart werden, da PBXl Gene aktiviert, die normalerweise ent- 
10 weder nicht exprimiert oder auf einem niedrigen Niveau expri- 
miert sind. # 

Patienten mit einer Hyperdiploidie von > 50 Chromosomen haben 
Klone von 51-68 Chromosomen. Obwohl hoch hyperdiploide Klone 
15 selten identisch sind, neigen sie dazu, ein Muster des Chro- 
mosomenzuwachses mit zusatzlichen Kopien der Chromosome 4, 6, 
10, 14, 18 und 21 aufzuweisen. 

Trisomie und Polysomie 21 sind nicht zufallige Anomalien, 
20 welche bei ALL haufig zu beobachten sind. Ihr Auftreten, auch 
wenn es nicht spezifisch ist, sowie das gehaufte Auftreten 
von akuter Leukamie bei Subjekten mit konstitutioneller Tri- 
somie 21 legen die Vermutung nahe, dass das Chromosom 21 eine 
besondere Rolle bei der Leukamogenese spielt. 

25 

Eine andere Krankheit, das Down-Syndrom, wird durch Trisomie 
21 verursacht und zeigt ein verstarktes Auftreten von Leuka- 
mie wie etwa ALL. 

30 Demzufolge ermoglich in diesem Fall die beschriebene Vorge- 
hensweise gemali dem Ausf uhrungsbeispiel Gene zu identif izie- 
ren, die in hohem Malie auf den hyperdiploiden ALL-Untertyp 
hinweisen, von denen jedoch auch bekannt ist, dass sie eine 
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wesentliche Rolle bei der Entstehung des Down-Syndroms spie- 
len. 



Das Gen SOD1 befindet sich am Chromosom 21 und produziert ein 
Enzyra, welches superoxidf reie Radikale in Wasserstof fperoxid 
umwandelt. Die verstarkte Expression bei Trisomie 21, welche 
auch bei den Microarray-Stichproben von Patienten rait hyper- 
diploidem Karyotyp zu beobachten ist, kann die Hirnschadigung 
auslosen, die beim Down-Syndrom zu erkennen ist. 

Die Haufigkeit des Auftretens des hyperdiploiden ALL- 
Untertyps erhoht sich auch in dem Falle, wenn das Gen PSMD10 
uberexprimiert ist . 



15 PSMD10 ist eine regulierende Unter-Einheit des Proteasoms 

26S, von dem nachgewiesen wurde, dass es als ein naturlicher 
Mechanismus fur den Abbau von Proteinen durch Regulierung des 
Proteinumsatzes in eukaryotischen Zellen wirkt. 

20 Dies ist bei Krebserkrankungen des Menschen von Bedeutung, da 
der Zellzyklus, das Tumorwachstum und das Uberleben durch ei- 
ne grofte Vielfalt an intrazellularen Proteinen bestimmt wer- 
den r welche durch den Ubiquitin-abhangigen Proteasom-Abbauweg 
geregelt werden, der von PSMD10 beeinflusst wird. 

25 

In neueren wissenschaf tlichen Arbeiten auf diesem Gebiet wur- 
de nachgewiesen, dass dieser Abbauweg oft Gegenstand einer 
mit Krebs zusarnmenhangenden Deregulierung ist und solchen 
Prozessen unterliegen kann f wie onkogener Transformation, Tu- 
30 morprogression, Umgehung der Immunuberwachung und Arzneimit- 
telresistenz . 



Zusammenf assung des Ausf iihrungsbeispiels 
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Das beschriebene Ausf iihrungsbeispiel stellt eine neue Vorge- 
hensweise vor, mit der es moglich ist, Gene, die eine poten- 
zielle Ursache fur eine Tumorgenese sind, durch Analysieren 
5 der Zusammenhange zwischen Microarray-Daten von Leukamie- 

Untertypen und einem Datensatz, der Ergebnis einer Stichpro- 
benentnahme aus einem gelernten Bayesschen Netzwerk ist, zu 
identif izieren . 

10 Basis dieser Vorgehensweise ist die Modellierung eines regu- 
lierenden genetischen Netzwerkes durch ein Bayessches Netz- 
werk, wobei Gene bzw. ihre entsprechenden Proteine durch Kno- 
ten des Bayesschen Netzwerks symbolisiert werden. 

15 . Regelungsmechanismen werden durch Kanten zwischen zwei Knot en 
beschrieben, welche auf eine kausale Art und Weise interpre- 
tiert werden konnen. 

Die Qualitat der Regulierung ist in der bedingten Wahrschein- 
20 lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- 
latoren desselben codiert. 

Das Verstandnis der regulierenden genetischen Netze stellt 
einen wichtigen Schritt auf dem Weg zur Charakterisierung der 
25 genetischen Mechanismen dar, welche komplexen Krankheiten 
zugrunde liegen . 

In der Krebsf orschung, wo die Identif izierung von Geschwulste 
und Tumor e unterdriickenden Genen einen Schlusselrolle spielt, 
30 ist die Kenntnis neuer potenzieller Onkogene und ihrer Wech- 
selwirkung mit anderen Molekiilen ein wichtiger Beitrag zur 
Aufdeckung der Grundprinzipien, welche die Umwandlung norma- 
ler Zellen in bosartige Krebszellen bestimmen. 
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Mit der beschriebene Vorgehensweise gemafi dem Ausftihrungsbei- 
spiel, insbesondere mit der Bayesschen inversen Modellierung, 
ist es moglich, Gene mit einer solchen onkogenen Charakteris- 
5 tik einfach durch eine statistische Analyse von Gen- 
Express ionsmus tern, die mit Hilfe von DNA-Microarrays gemes- 
sen wurden, zu entdecken. 

Das zugrundliegende wahrscheinlichkeitstheoretische Modell, 
10 das verwendet wurde, ist ein Bayessches Netzwerk, welches die 
multivariate Wahrscheinlichkeitsverteilung einer Menge von 
Variablen mittels einer Menge von bedingten Wahrscheinlich- 
keitsverteilungen codiert. 



15 Die statistischen Abhangigkeiten werden in einer Graphstruk- 
tur codiert. Beim Lernverf ahren werden Bayessche Statistiken 
verwendet, ura die Netzstruktur und die entsprechenden Modell- 
parameter zu ermitteln, welche die Wahrscheinlichkeitsvertei- 
lung enthalten in den Daten am besten beschreiben. 



3 
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Patentanspriiche 



1. Verfahren zur Analyse eines regulatorischen genetischen 
Netzwerks einer Zelle unter Verwendung eines kausalen Netzes, 

5 welches kausale Netz das regulatorische genetische Netzwerk 
der Zelle beschreibt derart, dass Knoten des kausalen Netzes 
Gene des regulatorischen genetischen Netzwerks reprasentieren 
und Kanten des kausalen Netzes regulatorische Wechselwirkun- 
gen zwischen den Genen des regulatorischen genetischen Netz- 
10 werks reprasentieren, 

a) bei dem fur ein ausgewahltes Gen des regulatorischen ge- 
netischen Netzwerks eine Gen-Expressionsrate vorgegeben 
wird, 

b) bei dem unter Verwendung des kausalen Netzes fiir die vor- 
15 gegebene Gen-Expre s s ions rate ein resultierendes Gen- 

Expres sionsmuster fiir das regulatorische genetische Netz- 
werk generiert wird; 

c) bei dem das generierte resultierende Gen- 
Expres sionsmuster mit einem vorgegebenen Gen- 

20 Expres sionsmuster des regulatorischen genetischen Netz- 

werks verglichen wird. 

2. Verfahren nach Anspruch 1, 

bei dem das ausgewahlte Gen unter Verwendung des kausalen 
25 Netzes mittels einer Abhangigkeitsanalyse ausgewahlt wird. 

3. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Gen-Expressionsrate des ausgewahlten Genes derart 
vorgegeben wird, dass die vorgegebene Gen-Expressrate des 
30 ausgewahlten Genes eine Annahme eines Gendefekts widerspie- 
gelt . 

4. Verfahren nach einem der vorangehenden Anspruche, 
bei dem das kausales Netz ein Bayesianisches Netz ist. 

35 



5. Verfahren nach einem der vorangehenden Anspruche, 
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bei dera das kausale Netz von einem Typ DAG (directed acylic 
graph) ist- 

6, Verfahren nach einem der vorangehenden Anspriiche, 

5 bei dem das generierte resultierende und/oder das vorgegebene 
Gen-Expressionsmuster diskrete Genzustande reprasentiert. 

7. Verfahren nach einem der vorangehenden Anspruche, 

-bei dem die reprasentierten diskreten Genzustande ein iiber-, 
0 ein normal-, ein unterexprimierten Genzustand sind 

8- Verfahren nach einem der vorangehenden Anspruche, 
bei dem der Vergleich des generierten resultierenden Gen- 
Expressionsmuster mit dem vorgegebenen Gen-Expressionsmuster 
5 unter Verwendung eines statischen Verfahrens und/oder einer 
statistischen Kennzahl, insbesondere eines AbstandsmaBes, 
durchgefuhrt wird. 

9. Verfahren nach einem der vorangehenden Anspruche, 
0 bei dem das kausales Netz unter Verwendung von Gen- 
Express ionsmus tern t rainier t wird, wobei die Knoten und die 
Kanten des kausalen Netzes angepasst werden. 

10. Verfahren nach einem der vorangehenden Anspriiche, 

5 bei dem die Gen-Expressionsmuster, insbesondere das vorgege- 
bene Gen-Expressionsmuster und/oder die Gen-Expressionsmuster 
fur das Training, bestimmt werden unter Verwendung einer DNA- 
Micro-Array-Technik. 

0 11. Verfahren nach einem der vorangehenden Anspruche, 

bei dem das vorgegebene Gen-Expressionsmuster und/oder die 
Gen-Expressionsmuster fur das Training Gen-Expressionsmuster 
eines genetischen regulatorischen Netzwerks einer kranken 
Zelle ist. 



12. Verfahren nach einem der vorangehenden Anspriiche, 
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bei dem die kranke Zelle eine Onko-Zelle, insbesondere eine 
Onko-Zelle mit ALL (Akute lymphoblastische Leukamie) 1st. 

13. Verfahren nach einem der vorangehenden Anspruche, 

5 bei dem die kranke Zelle ein Onko-Gen, insbesondere ein ALL- 
Onko-Gen, auf weist . 

14. Verfahren nach einem der vorangehenden Anspruche, 

bei dem fur eine Vielzahl von ausgewahlten Genen des regula- 
10 torischen genetischen Netzwerks jeweils eine Gen- 

Expressionsrate vorgegeben wird, eine Vielzahl von resultie- 
renden Gen-Expressionsmustern generiert werden und eine Viel- 
zahl von Vergleichen durchgefuhrt werden. 

15 15. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Generierung der Vielzahl von resultierenden Gen- 
Expressionsmustern iterativ durchgefuhrt wird. 

16. Verfahren nach einem der vorangehenden Anspruche, 
20 eingesetzt zur Identif izierung eines dominanten Gens. 

17. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt zur Identif izierung eines degenerier- 
ten/mutierten/kranken/onkogenen/tumor-suppressor Gens . 

25 

18. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt zur Identif izierung einer Tumorzelle. 

19. Verfahren nach einem der vorangehenden Anspruche, 
30 eingesetzt zur Krebserkennung. 

20. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt zu einer Ursachenanalyse fur ein abnormales Gen- 
Expressionsmuster/Gen-Expressrate. 

35 

21. Verfahren nach einem der vorangehenden Anspruche, 
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eingesetzt zu einer Simulation und/oder Analyse einer Wirk- 
weise eines Medikaments . 

22. Computerprogramm mit Programmcode-Mitteln, um alle 

5 Schritte gemaft Anspruch 1 durchzuf iihren, wenn das Programm 
auf einem Computer ausgefiihrt wird. 

23. Computerprogramm mit Programmcode-Mitteln gemaft dem vo- 
rangehenden Anspruch, welche Programmcode-Mitteln auf einem 

10 computerlesbaren Datentrager gespeichert sind. 

24. Computerprograram-Produkt mit auf einem rtiaschinenlesbaren 
Trager gespeicherten Programmcode-Mitteln, um alle Schritte 
gemafi Anspruch 1 durchzuf iihren, wenn das Programm auf einem 

15 Computer ausgefiihrt wird. 
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Vorgabe Gen-Expressionsrate fur 
110-^1 ausgewahlter Gen 
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Bestimmung resultierender 
Gen-Expressionsmuster unter Verwendung 
des kausalen Netzes 
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Vergleich resultierender 
Gen-Expressionsmuster <-» vorgegebener 
Gen-Expressionsmuster 
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Algorithmus der Stichprobenentnahme (B,N) 

Eingang: 

B - Bayessches Netzwerk; 

N - Anzahl der unabhangigen Stichproben. 

Ausgang: 

D B - Datensatz von N unabhangigen Stichproben. 

1 . Ordne die Variablen-Menge X gemaB der Bedingung, - — 210 
dass Parents (Elternknoten) Paj vor den Xj angeordnet sind. 

2. Furs=1 N -~230 

3. Fur i=1, .... n --220 

4. Sei Xj der Knoten mit der hochsten Ordnungsnummer in dieser 
Stichprobe, der nicht instantiiert ist. 

5. Falls Xj ein Wurzelknoten ist, wahle den Zustand mit 
Wahrscheinlichkeit P(Zustand), 

6. andernfalls wahle den Zustand mit Wahrscheinlichkeit 
P(Zustand | entnommene Zustande von Paj). 

7. lnstantiiereXj=Zustand. 
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FIG 3 



Algorithmic der interventionellen Stichprobenentnahme (B.E.N) 
Eingang: 

B - Bayessches Netzwerk; 3 i n 

E - Menge von Beobachtungen; 

N - Anzahl der unabhangigen Stichproben. 

Ausgang: ^330 
D B | E - Datensatz von N unabhangigen Stichproben bei gegebenem E. 

XE - Menge beobachteter Variabler; — 320 
Xq={X\XE} - Menge von Abfragevariablen. 

1. Ordne Xq gemaB der Bedingung, dass Parents (Elternknoten) Pa; 
vor den X,- angeordnet sind. 

2. Fur s=1, .... N 

3. Fur i=1, .... n 

4. Sei Xj der Knoten mit der hochsten Ordnungsnummer in dieser 
Stichprobe, der nicht instantiiert ist. 

5. Falls Xj ein Wurzelknoten ist, wahle den Zustand mit - 
Wahrscheinlichkeit P(Zustand\E), 

6. andernfalls wahle den Zustand mit Wahrscheinlichkeit 
P(Zustand | entnommene Zustande von Paj.E). 

7. lnstantiiereX:=Zustand. 
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